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摘要 : [目的 /意义 ] 针对 公安 业务 中 对 热线 文本 数据 犯罪 线索 关键 信息 识别 与 得 查 时 存在 的 信息 化 
分 析 能 力 不 足 问题 ， 提 出 一 种 基于 关键 词 挖 所 的 热线 文本 数据 犯 罩 线 索 第 查 方法 ， 帮 助 业务 部 门 提高 相关 
情报 研判 效率 ， 使 得 犯罪 线索 筛 查 工作 更 加 信息 化 和 科学 化 。[ 方 法 / 过程] 考虑 到 直接 采用 文本 类 等 算 
法 方法 或 因 有 效 信息 样本 量 占 比 过 小 使 得 模型 训练 不 充分 ， 本 文 首先 对 已 知 犯罪 线索 进行 基于 文本 相似 度 
的 种 子 词 集 抽取 ， 然 后 采用 Word2Vec 对 种 子 词汇 从 同类 词 、 普 代词 两 个 角度 扩展 构成 专业 词 库 ， 最 后 使 
用 基于 语义 的 积分 第 查 模型 实现 对 热线 文本 数据 中 犯罪 线索 第 查 。[ 结果 /结论 ] 对 济南 市 1 050 条 先 验 热 
线 文本 数据 作 犯 罪 线 索 筛 查实 验 ， 并 进行 实际 比 对 与 结果 指标 分 析 ， 得 到 结果 召回 率 86%， 可 以 认为 本 文 
所 述 基于 语义 的 积分 第 查 方法 对 济南 市 热线 文本 数据 内 犯罪 信息 具体 性 识别 达到 预期 效果 并 实现 犯罪 线索 
有 效 得 查 。 
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犯罪 关键 信息 的 数据 类 目 ， 再 快速 浏览 数据 详 
情 内容 字 段 并 根据 经 验 知识 识别 事件 关键 信息 ， 
最 后 研判 该 数据 是 否 作为 犯罪 线索 输出 。 但 由 
于 详情 内 容 字段 数据 多 以 大 段落 文本 形式 呈现 ， 
且 其 中 包含 的 有 效 关键 信息 词汇 单元 占 比 较 小 ， 
在 提取 和 挖掘 关键 信息 时 具有 相当 的 困难 ， 使 
得 传统 人 工 筛 查 模式 中 存在 有 效 研 判 效率 较 低 、 
数据 利用 不 充足 等 问题 "1。 

热线 文本 数据 犯罪 线索 得 查 工作 的 关键 在 
于 对 数据 文本 内 容 中 代表 犯罪 语义 关键 信息 的 
识别 和 提取 。 目 前 ， 在 文本 内 容 关 键 信 息 抽取 
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社区 健康 问 句 短文 本 提取 了 健康 信息 关键 词 并 
集合 作为 健康 问 句 关键 信息 词 库 ， 实 现 了 基于 
健康 问 句 关键 信息 词 库 的 健康 问 句 文本 的 有 效 
分 类 外， 姜 天 宇 等 利用 词 向 量 构建 和 TF-IDF 加 
权 方 法 对 新 华 社 不 同类 别 邮 件 进行 了 邮件 主题 
信息 关键 词 提取 ， 进 一 步 结合 改进 的 朴素 贝 叶 
白 树 方法 实现 了 对 新 华 社 邮件 的 文本 分 类 ™。 

从 目前 研究 进展 来 看 ， 关 键 词 、 特 征 词 提 
取 等 自然 语言 处 理 技术 已 在 新 闻 学 等 诸多 领域 
得 到 了 应 用 ， 并 达到 了 较 好 的 应 用 效果 。 但 在 
当前 ， 各 类 公安 业务 处 理 线 索 数 据 文 本 工作 时 


方面 ， 研 究 人 员 进 行 了 大 量 的 研究 ， 其 中 基于 
词 频 的 关键 词 提取 (TF-IDF、LDA 等 ) 是 一 种 
常用 的 方法 ,但 是 当 关 键 信 息 词 汇 单元 数量 在 
文本 中 占 比较 小 时 ， 基 于 词 频 的 关键 词 提取 方 
法 不 能 够 满足 文本 分 析 的 需求 ， 与 此 同时 ， 在 
中 文 文本 分 析 时 ， 基 于 词 频 提取 的 关键 词 还 存 
在 着 语义 歧义 问题 站。 对 此 , 一些 研究 人 员 提 出 
通过 词 向 量 技术 ( Word2Vec ) 构建 关键 信息 词 
库 ， 结 合 关键 词 抽取 、 文 本 相似 度 计算 等 文本 
分 析 方 法 以 解决 关键 信息 词汇 单元 占 比 小 及 语 
义 歧 义 问 题 对 文本 分 析 的 影响 。 例 如 ， 芯 云 等 
利用 基于 语义 关系 约束 的 SRC-LDA 主题 模型 对 
商品 评论 文本 进行 了 主题 词 提 取 ， 实 现 了 对 商 
品评 论 主题 词 的 有 效 提取 外， 刘 耕 等 利用 关联 
词 和 Jaccard 系数 扩展 规则 设计 了 敏感 词 库 并 对 
网 络 熏 情 敏 感 文本 进行 了 敏感 信息 检索 和 提取 ， 
实现 了 网 络 敏感 信息 可 靠 率 10% 以 上 的 提升 中; 
刘 亚 桥 等 利用 词 向 量 模型 构建 的 摄影 领域 评论 
情感 词典 对 摄影 评论 数据 进行 了 摄影 情感 信息 
提取 并 做 进一步 语 料 分 类 ， 实 现 了 基于 情感 词 
典 下 对 摄影 领域 评论 语 料 分 类 中， 谭 敏 博 等 对 


受 限 于 信息 表达 规范 化 不 足 、 有 效 信息 分 散 等 
问题 而 仍 采 用 传统 人 工 筛 查 模式 ， 缺 少 针对 特 
定 类 型 犯罪 线索 的 有 效 信息 化 控 气 方法。 为 此 ， 
本 文 以 热线 文本 数据 为 例 ， 立 足 犯 罪 线 索 文 本 
特点 ， 设 计 了 抽取 其 中 犯罪 线索 关键 信息 的 方 
法 ,并 根据 公安 机 关 情 报 研 判 逻 辑 设 计 了 基于 
语义 的 积分 筛 查 模型 "… ， 从 而 提升 公安 机 关 文 
本 数据 中 信息 化 获取 犯罪 线索 的 能 力 。 


@ 关 键 词 抽取 


在 “标签 体系 + 人 工 提 取 ” 筛 查 方法 广泛 、 
成 熟 的 应 用 背景 下 ， 热 线 文本 数据 同样 根据 事 
件 所 涉 政府 业务 领域 不 同 而 被 赋予 以 业务 领域 
相应 粗粮 度 标 签 ， 事件 详情 内 容 则 不 做 标签 处 
理 。 而 热线 文本 数据 中 的 犯罪 线索 往往 从 事件 
详情 内 容 字 段 中 控 据 分 析 得 到 ， 且 代表 犯罪 线 
索 语义 的 关键 信息 在 详情 内 容 文 本 中 位 置 分 散 、 
数量 较 其 他 信息 占 比 小 、 不 具有 明显 文本 句 式 
结构 化 特征 ， 常 见 表达 形式 有 单词 汇 表 达 、 短 
语句 式 表 达 两 种 ， 如 “侦查 ”“ 耶 以/ 取缔”。 
与 此 同时 ， 构 建 专业 词 库 时 不 可 避免 地 对 短语 


谷类 作物 病害 数据 进行 了 谷类 作物 病害 特征 信 
县 提取 ， 实 现 了 对 谷类 作物 病害 特征 属性 识别 
的 精准 查询 中， 夏 松 等 利用 基于 Word2Vec 技术 
的 语义 近似 匹配 对 微 博 类 社交 平台 短文 本 构建 
了 网 络 谣 言 敏感 词 库 ， 实 现 了 基于 网 络 谣 言 敏 
感 词 库 的 网 络 谣言 有 效 识别 ”; 唐 晓 波 等 联合 
TF-IDF 方法 与 词 向 量 特征 扩展 方法 对 医疗 问答 


540 


句 式 进行 再 分 词 处 理 ， 若 采用 文本 类 等 自动 化 
算法 直接 对 文本 进行 处 理 ， 则 再 分 词 后 存在 的 
大 量 无 独立 语义 词汇 将 对 结果 准确 性 有 明显 影 
啊 。 

目前 ， 公 安 机 关 民 警 对 热线 数据 中 犯罪 线 
索 的 排查 和 识别 主要 通过 关键 词 来 进行 判定 ， 
但 由 于 来 电 人 表达 方式 和 习惯 的 不 同 ， 一 些 涉 
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嫌犯 罪 的 表述 可 能 存在 着 句 式 结构 和 语义 歧义 
等 问题 。 因 此 ， 要 尽 可 能 地 达到 对 热线 文本 数 
据 中 犯罪 线索 的 排查 和 识别 ， 首 先 需 要 确定 数 
据 中 已 有 的 代表 犯罪 语义 关键 信息 词汇 ( 种子 
词 集 ) ， 并 在 此 基础 上 关联 相关 的 同义词 和 近 
义 词 (扩展 词 集 ) ， 最 终 实现 热线 文本 数据 犯 
罪 线 索 的 关键 词 库 的 构建 。 
2.1 种 子 词 集 构建 

词 向 量 技术 ( Word2Vec ) 是 一 种 基于 上 下 
文 分 布 表示 词义 的 技术 方法 ， 其 专注 于 无 标注 
数据 ， 利 用 神经 网 络 语言 模型 从 大 量 文本 中 学 
习 语 义 信息 。 词 向 量 技 术 常常 用 于 计算 词语 间 、 
句子 间或 者 其 他 长 文本 间 的 相似 度 ， 并 具有 良 


Word2Vec 


已 知 犯罪 线 
索 语 糙 


经 验 知识 词汇 外 
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好 效果 "9。 

在 种 子 词 集 构 建 上 ， 本 文 首先 收集 执法 部 
门 的 犯罪 信息 词汇 作为 经 验 知识 词 集 ， 随 后 以 
全 量 数据 语 料 作为 训练 语料库 ， 得 到 全 量 数据 
Word2Vec 词 向 量 模 型 、 已 知 属性 ( 普通 事件 / 
疑似 犯罪 线索 事件 ) 的 数据 语 料 Word2Vec 词 向 
量 、 经 验 知 识 词 集 基于 全 量 语 料 上 下 文 语义 的 
词 向 量 ,， 最后， 以 已 知 属性 数据 语 料 词 向 量 作 
为 种 子 词 集 识别 抽取 的 数据 基础 ， 以 经 验 知识 
词汇 集 词 向 量 为 对 照 匹 配 变 量 集 ， 通 过 向 量 间 
映射 计算 得 到 二 者 文本 相似 度 ， 实 现 对 已 知 属 
性 数据 中 符合 相似 度 要 求 的 信息 词汇 抽取 并 集 
合 得 到 种 子 词 集 ， 其 流程 如 图 1 所 示 : 


犯罪 语义 
言 息 抽取 


种 子 词 集 


1 构建 种 子 词 集 流程 


抽取 得 到 的 种 子 词汇 分 为 两 类 : 代表 疑似 
犯罪 线索 事件 语义 的 词汇 T_T (下 同 ) ， 代 
表 普 通 事件 语义 的 词汇 Word_F (下 同 ) 。 此 处 
所 指 “ 疑似 犯罪 线索 事件 ” 即 可 根据 相关 法 律 
规定 属于 公安 机 关 犯 罪 活 动 侦办 的 事件 ， 包 括 
可 判定 为 有 违法 行为 但 未 达 犯 罪 标准 的 、 需 要 
进一步 确认 的 及 已 立案 需 督 办 的 线索 事件 ; 普 
通 事件 即 根据 相关 法 律 规定 不 属于 公安 机 关 管 
辖 的 事件 ， 包 括 经 有 关 办 理 单位 确认 后 反馈 为 
恶意 、 重 复 拨打 的 无 效 热线 事件 。 

为 确定 抽取 得 到 的 种 子 词 汇 在 犯罪 线索 得 
查 中 的 可 靠 性 ， 通 过 回溯 已 知 属性 数据 本 身 ， 
定义 回溯 值 为 某 种 子 词汇 所 属 数据 属性 为 犯罪 
线索 的 数据 数量 ( 回溯 数 ) 与 其 在 全 量 数据 中 
出 现 次 数 ( 词 频 ) 的 比值 ， 代 表 了 该 词汇 在 犯 


罪 线索 筛 查 过 程 中 的 可 靠 性 ,公式 (1 ) : 
Nn WO d) 
Ey 1) 宣 
N, no d) 公式 (1) 


其 中 ，Phoo 代表 种 子 词汇 回溯 值 ，awoo 代 
表 种 子 词 汇 回 淹 数 ，Nuwwo 代表 种 子 词汇 在 全 量 
数据 中 词 频 。 将 得 到 的 回溯 值 作 为 对 应 种 子 词 
汇 在 犯罪 线索 筛 查 模型 中 的 权重 系数 。 
2.2 扩展 词 集 

考虑 到 同一 语义 的 表达 会 以 不 同 的 词汇 
和 句 式 结构 呈现 ， 为 了 实现 专业 词 库 的 有 效 履 
盖 和 扩展 ， 从 种 子 词 集 的 同类 词 、 蔡 代词 2 个 
方面 进行 词 库 的 扩展 ， 另 结合 与 情 领 域 公开 敏 
感 词 库 共同 构成 扩展 词 集 。 扩 展 词 集 的 词汇 可 
靠 性 由 扩展 词汇 与 种 子 词汇 的 文本 字面 距离 相 
似 度 确定 ， 本 文采 用 余弦 距离 相似 度 ( Cosine 
Similarity ) 计算 得 到 ， 如 公式 (2 ) 所 示 : 
WO, 
lele,| 公式 (2) 

对 于 同类 词 集 扩 展 ，Word2Vec 方法 计算 所 
得 词 向 量 能 够 反映 出 词汇 所 处 上 下 文 和 语义 关 
系 。 首 先 通过 全 量 语 料 的 Word2Vec 词 向 量 模型 


Similarity(@,®,)= coSO = 


54] 
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得 到 种 子 词 集 的 词 向 量 ， 再 以 全 量 数据 语料库 
构建 的 Word2Vec 词 向 量 模型 为 同类 词 集 识 别 
抽取 的 数据 基础 ， 以 种 子 词 集 词 向 量 对 照 匹配 
变量 集 ， 计 算得 到 二 者 文本 相似 度 ， 实 现在 全 


Word2Vec 
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量 语 料 库 中 基于 上 下 文 语义 关系 的 关键 信息 同 
类 词汇 的 抽取 ， 并 将 相似 度 作 为 对 应 词汇 在 犯 
罪 线 索 筛 查 横 型 中 的 权重 系数 ， 其 流程 如 图 2 
所 示 : 


2 构建 同类 词 集 流程 


对 于 替代 词 集 扩展 ， 考 虑 到 同一 语义 可 由 
不 同 词汇 表达 ， 以 种 子 词 集 在 中 文 表达 中 的 近 
义 词 作为 其 赫 代 词 。 利 用 种 子 词 集 基于 全 量 语 
料 的 Word2Vec 词 向 量 模型 的 词 问 量 ， 结 合 近 义 
词 查找 工具 ， 在 以 开源 维基 百科 中 文 语 料 库 中 
寻找 近义词 并 计算 二 者 文本 相似 度 ， 实 现 基 于 
公开 中 文 语料库 的 关键 信息 蔡 代 词汇 的 抽取 ， 
将 相似 度 作 为 对 应 词汇 在 犯罪 线索 筛 查 模型 中 
的 权重 系数 ， 其 流程 图 如 图 3 所 示 : 


种 也 集 蔡 代 河 信 


3 构建 替代 词 集 流程 
和 犯罪 线索 筛 查 模型 


3.1 犯罪 线索 积分 预警 模型 

积分 预警 模型 是 基于 大 数据 背景 下 的 情报 
主导 警 务 模式 应 运 而 生 的 公安 数据 挖 气 手 段 "|。 
该 模型 方法 以 某 事件 发 生 为 预警 对 象 ， 将 可 能 
影响 该 事件 发 生 的 因素 罗列 出 来 ， 并 按照 因素 
的 影响 性 程度 赋予 相应 的 权重 分 值 ， 每 当 某 个 
因素 出 现时 , 都 会 以 和 的 形式 计算 出 相应 分 值 ， 
直到 所 有 的 因素 都 被 积分 出 来 。 积 分 分 值 代表 
事件 发 生 的 定量 描述 ， 可 表示 为 : 


Y= Dp; ys 
2 公式 (3 ) 


人 
其 中 , i 为 影响 因素 , y 为 分 值 设 定 , p 为 
该 因素 权重 系数 。 针 对 本 文 研究 热线 数据 ， 单 
条 待 得 查 数据 积分 总 值 由 其 与 各 类 型 词 集 匹 配 
后 产生 的 各 积分 值 构成 。 各 类 型 词 集 积分 值 由 
分 属 两 个 不 同属 性 的 词 集 积 分 值 构成 。 各 个 词 
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集 的 积分 值 影响 因素 为 符合 条 件 的 单一 词汇 的 
相似 度 、 该 单一 词汇 权重 值 及 与 词 集 词汇 匹配 
到 相同 词汇 的 个 数 。 除 此 之 外 ， 熏 情 领域 公开 
敏感 词 集 只 做 相同 词汇 计数 积分 人 处理。 单条 数 
据 于 词 集 的 积分 值 计 算 规则 如 下 : 


S (are) =aS yo 7) + DbS (gora_F) 公式 ( 4 ) 
SUM (a) 一 DS + Counts iomar) 公式 ( 5 ) 
dic 


其 中 ，Suo 代表 某 类 型 词 集 ( 种 子 词 集 、 
同类 词 集 、 替 代词 集 ) 的 积分 值 ，S0wn 及 
Suwon 代表 某 类 词 集中 代表 疑似 犯罪 线索 事件 
语义 的 词 集 (T 或 代表 普通 事件 语义 的 词 集 ( 下 )， 
a.b 为 该 词 集 的 权重 系数 ,SUM 代 表 总 积分 结果 ， 
Countsomermes 代表 匹配 过 程 中 出 现 的 熏 情 领域 公 
开 敏 感 词 集中 不 重复 计数 的 词汇 数目 。 

3.2 犯罪 线索 筛 查 算法 

在 采用 “标签 体系 ”对 数据 已 做 粗 粒 度 分 
类 背景 下 ， 本 文 研 究 文本 数据 中 包含 事件 详情 
内 容 信 息 和 标点 符号 .语气 词 等 无 效 信息 。 据 此 ， 
在 匹配 筛 查 之 前 需要 对 竺 得 查 数 据 作 预 处 理 : 
通过 中 文 分 词 工具 Jieba 对 待 筛 查 数据 进行 分 词 
处 理 , 为 避免 分 词 粒度 不 同 造成 后 续 匹 配 失败 ， 
在 精确 分 词 模式 基础 上 设计 自 定义 分 词 标准 ; 
对 分 词 后 数据 ,使 用 自 定义 停 用 词 表 去 除 标点 
符号 、 干 扰 词 等 无 效 文本 。 

本 文采 用 基于 语义 的 积分 预警 模型 实现 对 
热线 文本 中 犯罪 线索 租 查 ， 即 专业 词 库 中 词汇 
的 可 靠 度 (权重 值 ) 与 匹配 时 的 文本 相似 度 共 
同 控制 筛 查 结果 。 对 于 单条 待 筛 查 数据 ， 筛 查 
流程 主要 从 3 个 层次 循序 进行 : 待 筛 查 数据 词 
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汇 与 某 词 集 词汇 匹配 相似 值 计算 、 单 条 数据 与 
专业 词 库 中 某 词 集 匹 配 积分 值 运 算 、 单 条 数据 
与 专业 词 库 积分 值 运算 。 

对 于 待 筛 查 数据 词汇 与 某 词 集 词汇 匹配 相 
似 值 计 算 ( match(seg,wora) ) ， 即 单条 符 筛 查 数 
据 中 某 词 汇 (seg ) 与 专业 词 库 中 某 词 集中 某 
词汇 (word ) 的 相似 值 计算 ,具体 步骤 如 下 : 
中 判断 输入 的 两 词汇 是 否 相 同 ， 若 相同 则 相似 
值 记 为 1， 否则 进行 @; @ 判 断 两 词汇 是 否 同时 
存在 于 已 训练 好 的 Word2Vec 词 向 量 模型 中 ， 若 
存在 则 计算 两 词汇 文本 相似 度 后 进行 由 ， 否 则 
进行 @); @ 在 基于 维基 百科 语 料 的 词 向 量 模型 
中 得 到 seg 的 词 向 量 ， 进 而 计算 两 词汇 文本 相似 
度 ， 后 进行 由 ; 由 判断 相似 度 是 否 大 于 或 等 于 
设 定 阔 值 ， 知 满足 则 记录 该 相似 度 ， 和 否则 结 
本 次 相似 值 计算 ; @@ 将 记录 的 二 者 文本 相似 度 
与 本 次 匹配 的 word 对 应 权重 值 p 作 乘积 运算 ， 
结果 作为 两 词汇 的 相似 值 。 

对 于 单条 待 筛 查 数据 与 某 词 集 的 相似 值 
运算 (sim(data,dic)) ， 以 分 词 后 的 待 得 查 
数据 、 专 业 词 库 中 某 词 集 作 为 输入 项 目 。 遍 
历 输 入 数据 集合 中 元 素 并 做 碰撞 匹配 ， 结 合 
match(seg,word) 模块 ， 对 每 次 遍历 产生 相似 值 
作 求 和 和 运算。 与 此 同时 ， 计 算 某 词 集中 词汇 在 


ChinaXiv 合 作 期 刊 
知识 管理 论坛 ，2022 (5) :539-548 
DO1: 10.13266/j.issn.2095-5472.2022.044 


待 第 查 数 据 中 相同 个 数 ， 再 将 求 和 运算 结果 与 
词汇 相同 个 数 求 和 得 到 该 待 盘查 数据 与 某 词 集 
的 相似 值 。 

对 于 单条 待 复查 数据 与 专业 词 库 相 似 值 积 
分 运算 与 结果 输出 (sim(data,a11) ) ， 待 筛 查 数 
据 经 上 述 处 理 后 ， 分 别 得 到 该 待 得 查 数据 与 所 
有 词 集 的 相似 值 。 根 据 2.1 设计 的 积分 运算 规则 
计算 该 条 数据 与 专业 词 库 相似 值 积分 运算 结 
并 输出 。 单 轮 待 盘查 数据 集 得 查 完成 后 ， 可 将 
此 轮 数据 加 入 数据 库 中 实现 数据 动态 更 新 。 


@ 实 验 验 证 


4.1 数据 来 源 及 示例 

本 文 主要 采用 依托 于 Python3.0 编程 语言 
环境 的 gensim.Word2Vec 词 向 量 模型 工具 构建 
Word2Vec 词 回 量 模型 。 实 验 数据 来 源 于 济南 市 
公安 局 食 药 环 支 队 提 供 的 12345 市 长 热线 数据 ; 
时 间 跨 度 为 2020 年 1 月 至 2021 年 3 月 ; 数据 
分 别 涉 及 食 药 安全 、 医 药 监督 、 环 境 保 护 、 疫 
苗 注 射 4 个 领域 ， 共 8 万 多 条 ; 参考 实际 公安 
工作 业务 流程 ， 研 究 数 据 字 段 为 已 由 相关 行政 
单位 核实 的 热线 事件 回复 内 容 , 旨 在 发 现 线索 、 
督办 线索 ， 实 验 数据 语 料 部 分 示例 及 数据 属性 
如 表 1 所 示 : 


表 1 实验 语 料 部 分 示例 


序号 事件 文本 内 容 ( 脱 敏 处 理 ) 数据 属性 

1 ”有 人 在 ** 社 区 东北 角 雁 与 打 了 两 口 机 并 ， 据 有 村 民 反 映 村 书记 赵 * 与 别人 合伙 ， 打 算 从 其 。 犯罪 线索 
他 地 区 运输 有 化 气体 投 放 谋取 利益 。 来 电 投诉 ， 要 求 旭 务 贡 他 。 ( 线索 发 现 ) 
收 到 * 先 生 诉求 后 ， 派 出 所 所 领导 扁 民 更 视 ， 原 * 局 的 营办 件 中 了 解 到 ， 举 报 ** 厂 排放 重金 

， 属 ， 此 项 超 W# 派 出 所 和合 笑 涪 奇 ， 系 环保 部 门 管辖 ， 关于 ** 厂 经 理 马 ** 交 避 故 总 杀人 、 投 普通 事件 
毒 、 非 法 经 营 、 污 染 环境 问题 ， 经 过 调 阅 档 案 ， 天 查询 到 此 案件 ， 电 话 联系 * 先 生 ，* 先 生  ” 
强烈 要 求 检察 院 处 理 ， 不 要 求 公安 机 关 人 处 理 ， 申 请 人 不计 人 考核 。 
市 生态 环境 保护 综合 行政 执法 支队 执法 人 员 就 举报 人 反映 的 问题 对 ** 公 司 莱 芜 分 公司 进行 
了 现场 粹 他 ， 具体 核查 情况 是 ……。 现 场 雁 谷 时 ，** 公 司 各 单位 正常 生产 ,污染 防治 设施 

3 ” 均 正常 运行 ， 夫 发 更 有 在 线 数据 超标 的 现象 。 执 法 人 员 现 场 要 求 ** 公 司 各 单位 严格 生产 管 ”普通 事件 
理 ， 确 保 各 项 污染 物 达 标 排放 ， 同 时 要 求 加 强 对 区 管 企 业 的 监管 力度 。 关 于 ** 厂 污染 的 投 
诉 问题 ， 我 局 已 按照 俯 访 程序 办 理 。 建 议 12345 热 线 不 列 人 年 终 注 启 奕 考核， 谢谢 | 
针对 “网 传 济南 某 整 形 机 构 女 老板 殴打 顾客 的 视频 ”一 事 ， 经 济南 市 公安 局 高 新 分 局 立案 犯罪 线索 

4 ”人 硕 查 ， 因 押 成 妮 人 刘 某 明 水 妙 非 法 拘禁 罪 ， 被 依法 琢 要 药房 ， 怒 弓 人 曲 某 、 孙 某 笑 水 录 非 (线索 督办 ) 


法 拘禁 罪 ,被 依法 到 保 候 征 。 案 件 正在 进一步 伪 办 中 ， 交 楚 处 更 睛 况 将 及 时 向 社会 公布 。 
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x= 
4.2 专业 词 库 构建 
4.2.1 种 子 词 集 
根据 1.1 所 述 种 子 词 集 构建 方法 ,通过 遍历 
学 习 集 中 经 验 知识 词汇 ， 对 预 处 理 后 的 已 知 属 
性 数据 采用 Word2Vec 词 向 量 工 具 与 经 验 知识 词 
集中 词汇 作文 本 相似 度 计算 ， 将 相似 度 高 的 词 
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汇集 合 ， 并 和 经验 知识 词 集 后 作为 种 子 词 集 。 
基于 不 同属 性 的 数据 得 到 种 子 词 集 分 为 两 类 : 
以 seed T 指 代 代 表 疑 似 犯 罪 信 息 语义 的 词 集 ， 
以 seed 下 指 代 善 通 事件 信息 语义 的 词 集 。 实 验 
中 ， 共 得 到 94 个 种 子 词 汇 ， 如 表 2， 其 中 seed_ 
T 词 集 55 个 ，seed 下 词 集 39 个 。 


表 2 种 子 词 集 词汇 部 分 示例 


类 型 词 集 示例 

,wed T 已 立案、 口头 动 诚 、 勒 令 、 实 施 /扣押 、 涉 嫌 违 法 、 正 在 /调查 处 理 、 采 取 措 施 、 限 期 整改 、 线 索 
-已 移交 、 取 缔 、 依 法 处 理 、 情 节 严重 、 落 实 查 处 …… 

,ood FE 。 不 纳入 /考核 、 不 予 立 案 、 奶 请 、 恶 意 /举报 、 继 续 /监督 、 没 有 /发 现 、 不 /存在 、 不 /属实 、 正 常 


现象 、 达 成 一 致 、 自 行 协商 /解决 、 不 再 


/追究 、 不 予 /受理 …… 


进一步 地 , 对 生成 的 种 子 词汇 通过 公式 (1) 
并 结合 分 层 抽 样 方法 计算 词汇 回溯 值 。 图 4 为 
seed T 词 频 和 回溯 数 关系 图 ,图 5 为 seed IT 回 
漳 值 趋势 图 。 对 于 seed T 中 词汇 ， 词 汇 的 回 淹 
数 在 词 频 占 比 中 呈现 明显 不 均衡 态势 ， 回 漳 值 
与 词 频 关系 以 无 规律 波动 呈现 。 整 体 来 看 ， 回 
漳 值 与 词 频 无 明显 伴随 关系 ， 但 是 各 词汇 回溯 
数 与 词 频 占 比 体现 了 犯罪 信息 在 文本 中 占 比 小 
的 特点 。 分 析 可 知 ， 由 于 seed_T 中 疑似 犯罪 语 
义 多 为 短语 句 式 ， 分 词 后 存在 3 种 性 质 词汇 ， 
根据 词 频 的 排序 为 : 连词 (如 “已 经 ”) 、 中 
立 语义 词汇 ( 如 “拍照 ” “调查 ”) 、 术 语词 汇 ( 如 
“取证 ”“ 嫌 疑 人 ”) 。 此 3 种 词汇 共同 作用 
于 对 文本 中 犯罪 信息 的 判定 ， 连 词 和 中 立 语义 
词汇 单独 出 现时 难以 判断 语义 性 质 上 且 常 与 不 同 
的 术语 词汇 搭配 出 现 ， 而 术语 词汇 单独 出 现时 


则 需要 结合 语 境 判断 是 否 为 犯罪 语义 ， 以 词 频 
作为 犯罪 线索 关键 信息 识别 标准 会 对 结果 有 和 较 
影响 。 图 6 为 seed 上 词 频 和 回溯 数 关系 图 ， 
图 7 为 sseed 上 回溯 值 趋势 图 。 对 于 seed 下 词 
集 ， 回 漳 数 与 词 频 成 正比 ， 也 即 wwwwXnwwo， 回 
漳 值 趋 于 稳定 ， 多 集中 于 区 间 [0.8,1)。 与 seed_ 
T 中 短语 形式 信息 不 同 ，seed F 为 表达 普通 事 
件 语义 的 信息 ， 其 短语 形式 的 信息 (如 “不 / 列 
入 /考核 ”“ 超 出 /管辖 范围 ” ) 大 多 由 否定 性 
连词 词汇 和 术语 构成 ， 当 二 者 同时 出 现 将 该 条 
数据 判定 为 普通 事件 的 概率 几乎 为 1， 即 具有 独 
判 性 。 同 时 ， 多 数 具 有 否定 性 的 术语 词汇 亦 具 
有 独 判 性 (如 “驳回 ”“ 亚 意 投 诉 ”) ， 因 此 ， 
一 些 和 否定 性质 词 汇 的 回溯 值 会 接近 于 1， 也 即 依 
据 该 词汇 判定 数据 为 非 犯 罪 线索 可 靠 性 极 高 。 
图 8 展示 了 种 子 词 集中 分 词 后 各 字 词 有 向 网 络 


0 20 40 
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5 seed_T 回溯 值 趋势 
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6 seed_F 词 频 和 回 济 数 关系 
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7 seed_F 回溯 值 趋势 


关系 图 ， 以 各 字 词 作为 节点 ， 节 点 大 小 由 词 频 
确定 ， 人 带 有 箭头 的 节点 间 连 边 为 词汇 组 成 短语 
的 句 式 结构 联系 , 边 长 由 词汇 的 回 渊 数 确定 。 
可 以 发 现 ， 图 中 较 大 节点 为 词性 是 连词 或 语义 


中 立 性 质 的 词汇 ， 进 一 步 说 明了 此 两 类 词汇 的 
可 靠 性 较 低 ; 反之 ， 能 够 明确 表达 疑似 犯罪 语 
义 的 词汇 在 图 中 表现 为 较 小 的 节点 ， 句 式 结 构 
多 与 较 大 节点 词汇 联系 ， 说 明 此 类 词汇 的 可 靠 
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4.2.2 扩展 词 集 

同类 词 集 扩展 。 利 用 Word2Vec 工具 得 到 94 
个 种 子 词 集 在 全 量 语 料 库 中 的 均值 向 量 ， 继 而 通 
过 文本 相似 度 计算 得 到 种 子 词 集 在 全 量 语 料 库 中 
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的 同类 词 集 。 实 验 中 共 取 到 与 种 子 词 集 同类 的 
480 个 词 作为 扩展 的 同类 词 ， 如 表 3， 其 中 seed_ 
T 同类 词 集 (seed _T similar， 下 同 ) 中 251 个 ， 
seed 上 同类 词 集 (seed F_similar, 下 同 ) 中 229 个 : 


表 3 同类 词 集 词汇 部 分 示例 


类 型 


词 集 示 例 


seed_T_similar 


上 
劝诫、 警告、 教育 批评 、 逾 期 …… 


，,， 不计 
seed F_ similar , 
人 意 


替代 词 集 扩展 。 对 种 子 词 集 经 过 Word2Vec 
工具 作词 向 量 处 理 后 ， 结 合 Synonyms 中 文 近 义 
词 查找 工具 , 产生 种 子 词 集 的 替代 词 集 ， 如 “ 苞 
诚 ” 的 奉 代 词 有 : 告 诚 、 责 备 等 。 实 验 中 共 取 


案件 、 法 定 程 序 、 立 案 查 处 、 行 政 处 罚 、 介 入 、 调 查 、 核 查 、 核 实 、 查 处 、 实 地 调查 、 口 头 、 


| 、 考 核 、 记 入 、 不 记 、 满 意 率 、 考 核 成 绩 、 纳 入 、 不 列 入 、 列 为 、 不 予 、 拒 绝 、 恶 意 、 故 
、 刁 难 、 报 复 、 个 人 行为 、 威 胁 …… 


到 506 个 词 作为 扩展 的 替代 词 ， 如 表 4， 其 中 
seed T 替代 词 集 (seed T_synonym， 下 同 ) 271 
个 ，seed F 替代 词 集 (seed F_synonym， 下 同 ) 
235 个 : 


表 4 替代 词 集 词汇 部 分 示例 


一 


类 型 


i 


词 集 示例 


seed T_ synonym 


面 、 劝 诚 、 告 诚 …… 


不 能 、 没 有 、 不 会 绝 不 、 计 入 、 扣 除 、 算 入 、 扣 减 、 考 核 、 续 效 考 核 、 奖 惩 、 
不 计 、 数 等 、 上 列 、 所 获 、 纳 入 …… 


seed F_synonym 


4.3 犯罪 线索 筛 查 结果 

犯罪 线索 得 查实 验 中 使 用 未 参与 模型 训练 
的 1 050 条 数据 ， 其 中 普通 事件 属性 数据 (F 类 
数据 ) 1 000 条 ， 疑 似 犯 罪 线 索 属性 数据 (IT 类 
数据 ) 50 条 。 根 据 本 文 所 述 基 于 语义 的 筛 查 方 
法 对 样本 数据 进行 犯罪 线索 得 查 积分 运算 ， 得 
到 了 类 数据 997 条 、T 类 数据 53 条 ; 经 与 实际 
数据 比 对 ， 实 际 为 类 且 判 定 为 了 类 的 数据 有 
43 条 ， 结 果 统 计 指标 如 表 5 所 示 。 由 于 工 类 数 
据 占 全 部 待 筛 查 数据 比例 较 低 ， 实 验 期 待 较 高 
的 结果 召回 率 。 从 实验 结果 的 指标 来 看 ， 召 回 
率 86%， 精 确 率 81.13%， 可 以 认为 本 文 所 述 基 
于 关键 词 挖 掘 的 积分 筛 查 模型 在 对 热线 文本 数 
据 中 犯罪 线索 得 查 时 达到 了 预期 的 效果 。 


表 5 犯罪 线索 筛 查 方法 结果 指标 统计 
指标 准确 率 ”精确 率 “召回 率 ” 漏 报 率 
数值 % 98.38 81.13 14.00 


86.00 


起 诉 、 批 撒 、 受 理 、 裁 定 、 调 查 结果 、 进 行 调查 、 调 查 报告 、 深 入 调查 、 书 面 形式 、 当 


绩效 评价 、 


全 结论 


对 热线 数据 中 的 犯罪 信息 做 到 有 理 、 有 据 、 
科学 的 抽取 是 执法 部 门 处 理 文本 信息 数据 、 确 
定 犯罪 线索 的 重要 环节 。 本 文 提 出 了 一 种 基于 
关键 词 挖掘 的 热线 文本 数据 中 犯罪 线索 自动 化 
筛 查 方法 ， 首 先 通过 词 向 量 模型 及 文本 相似 度 
计算 等 方法 建立 专业 词 库 ,然后 设计 了 基于 专 
业 词 库 的 犯罪 线索 积分 筛 查 模型 ， 并 以 济南 市 
热线 文本 数据 进行 实证 分 析 。 经 过 与 数据 实际 
情况 比 对 ， 该 方法 能 够 对 济南 市 热线 文本 数据 
中 的 犯罪 信息 具体 性 识别 并 实现 犯罪 线索 有 效 
地 筛 查 ， 使 得 犯罪 线索 筛 查 工作 更 加 信息 化 和 
科学 化 。 同 时 ， 该 方法 也 适用 于 其 他 公安 业务 
中 文本 数据 目标 信息 识别 及 数据 得 查 ， 如 与 情 
监测 业务 。 本 文 也 存在 一 定 的 局 限 ， 如 在 专业 
词 库 构 建 方面 ， 词 向 量 模型 训练 时 需要 一 定数 
量 的 经 验 知识 词汇 及 已 知 目标 数据 样本 用 于 构 
建 专业 词 库 ; 在 线索 得 查 算法 方面 ， 未 来 可 引 
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Research on Hotline Text Data Crime Clue Screening Method based on Keyword Mining 


Zhen Muhua Chen Peng Wang Kun FanZiyang Wang Zhe' 
School for Informatics and Cyber Security, People’s Public Security University of China, Beijing 100038 
Jinan Public Security Bureau, Jinan 250099 

Abstract: [Purpose/Significance] Aiming at the problem of insufficient information analysis ability 
in the current public security business about identification and Screening of crime clues in hotline texts, a 
method of hotline text data crime clue Screening based on keyword mining is proposed to help business 
departments Improve relevant intelligence and judgment [Method/Process] Considering that algorithms such 
as automatic text classification are subject to the problem of sample size, this paper firstly identified the key 
information of the known attribute data and established a seed lexicon, and then used Word2Vec to expand 
the seed vocabulary from the perspectives of similar words and synonym words to form a professional 
thesaurus, and finally used a Semantics-based integral Screening model to Screen criminal clues in the hotline 
text data. [Result/Conclusion] This paper conducted a crime clue Screening experiment on 1 050 priori 
hotline text data in Jinan City. After actual comparison and index analysis, the recall rate reached 86%. The 
specific identification of crime information in the text data of the city hotline achieved the expected effect and 
realized the effective screening of crime clues. 


Keywords: hotline text professional thesaurus text similarity crime clue screening 


